Visualisation

Serge-Étienne Parent

01 février 2019

Plan

  1. Les graphiques: avant de publier
  2. Choisir le bon type de graphique
  3. L’approche impératve et l’approche déclarative
  4. Visualisation en R 4.1 R base 4.2 ggplot2
  5. Fermeture

Objectifs spécifiques

À la fin de ce chapitre, vous

  • comprendrez l’importance de l’exploration des données
  • comprendrez les guides généraux pour créer un graphique approprié
  • comprendrez la différence entre les modes impératifs et déclaratifs pour la création de graphique
  • serez en mesure de créer des nuages de points, lignes, histogrammes, diagrammes en barres et boxplots en R
  • saurez exporter un graphique en vue d’une publication

1. Les graphiques: avant de publier

Un outil d’exploration

Animation montrant la progression du jeu de données Datasaurus pour toutes les formes visées. Source: Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing.

Cinq qualités d’un bon graphique

  1. Elle est véritable, puisqu’elle est basée sur une recherche exhaustive et honnête.
  2. Elle est fonctionnelle, puisqu’elle constitue une représentation précise des données, et qu’elle est construite de manière à laisser les observateurs.trices prendre des initiatives conséquentes.
  3. Elle est attrayante et intrigante, et même esthétiquement plaisante pour l’audience visée - les scientifiques d’abord, mais aussi le public en général.
  4. Elle est pertinente, puisqu’elle révèle des évidences scientifiques autrement difficilement accessibles.
  5. Elle est instructive, parce que si l’on saisit et accepte les évidences scientifiques qu’elle décrit, cela changera notre perception pour le mieux.

Qualité 1. Honnêteté

## ── Attaching packages ────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.0     ✔ purrr   0.3.0
## ✔ tibble  2.0.1     ✔ dplyr   0.7.8
## ✔ tidyr   0.8.2     ✔ stringr 1.3.1
## ✔ readr   1.3.1     ✔ forcats 0.3.0
## ── Conflicts ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## Parsed with column specification:
## cols(
##   year = col_double(),
##   temp = col_double(),
##   loess = col_double()
## )

Qualité 2. Fonctionnelle

Source: Slidebazaar

Qualité 3. Visuel

Qualité 4. Pertinence

Source: GIEC, Bilan 2001 des changements climatiques : Les éléments scientifiques

Qualité 5. Instructive

Source: Messerli, (2012)

3. Choisir le bon type de graphique

  1. Réfléchissez au message que vous désirez transmettre.
  2. Essayez différentes représentations.
  3. Mettez de l’ordre dans vos données.
  4. Testez le résultat.

4. Différentes approches

Impérative. Comment placer l’information sur une canevas. Exemple: R-base, Matplotlib (Python), Excel.

Déclarative. Spécifier quoi afficher. Exemple: ggplot2, altair (Python).

La visualisation déclarative vous permet de penser aux données et à leurs relations, plutôt que des détails accessoires.

Jake Vanderplas, Declarative Statistical Visualization in Python with Altair (ma traduction)

5. Visualisation en R

  • R-base
  • ggplot2 (et ses nombreuses extensions)
  • plotly (et ggplotly)

6. Fermeture